69 research outputs found

    Similarity processing in multi-observation data

    Get PDF
    Many real-world application domains such as sensor-monitoring systems for environmental research or medical diagnostic systems are dealing with data that is represented by multiple observations. In contrast to single-observation data, where each object is assigned to exactly one occurrence, multi-observation data is based on several occurrences that are subject to two key properties: temporal variability and uncertainty. When defining similarity between data objects, these properties play a significant role. In general, methods designed for single-observation data hardly apply for multi-observation data, as they are either not supported by the data models or do not provide sufficiently efficient or effective solutions. Prominent directions incorporating the key properties are the fields of time series, where data is created by temporally successive observations, and uncertain data, where observations are mutually exclusive. This thesis provides research contributions for similarity processing - similarity search and data mining - on time series and uncertain data. The first part of this thesis focuses on similarity processing in time series databases. A variety of similarity measures have recently been proposed that support similarity processing w.r.t. various aspects. In particular, this part deals with time series that consist of periodic occurrences of patterns. Examining an application scenario from the medical domain, a solution for activity recognition is presented. Finally, the extraction of feature vectors allows the application of spatial index structures, which support the acceleration of search and mining tasks resulting in a significant efficiency gain. As feature vectors are potentially of high dimensionality, this part introduces indexing approaches for the high-dimensional space for the full-dimensional case as well as for arbitrary subspaces. The second part of this thesis focuses on similarity processing in probabilistic databases. The presence of uncertainty is inherent in many applications dealing with data collected by sensing devices. Often, the collected information is noisy or incomplete due to measurement or transmission errors. Furthermore, data may be rendered uncertain due to privacy-preserving issues with the presence of confidential information. This creates a number of challenges in terms of effectively and efficiently querying and mining uncertain data. Existing work in this field either neglects the presence of dependencies or provides only approximate results while applying methods designed for certain data. Other approaches dealing with uncertain data are not able to provide efficient solutions. This part presents query processing approaches that outperform existing solutions of probabilistic similarity ranking. This part finally leads to the application of the introduced techniques to data mining tasks, such as the prominent problem of probabilistic frequent itemset mining.Viele Anwendungsgebiete, wie beispielsweise die Umweltforschung oder die medizinische Diagnostik, nutzen Systeme der Sensorüberwachung. Solche Systeme müssen oftmals in der Lage sein, mit Daten umzugehen, welche durch mehrere Beobachtungen repräsentiert werden. Im Gegensatz zu Daten mit nur einer Beobachtung (Single-Observation Data) basieren Daten aus mehreren Beobachtungen (Multi-Observation Data) auf einer Vielzahl von Beobachtungen, welche zwei Schlüsseleigenschaften unterliegen: Zeitliche Veränderlichkeit und Datenunsicherheit. Im Bereich der Ähnlichkeitssuche und im Data Mining spielen diese Eigenschaften eine wichtige Rolle. Gängige Lösungen in diesen Bereichen, die für Single-Observation Data entwickelt wurden, sind in der Regel für den Umgang mit mehreren Beobachtungen pro Objekt nicht anwendbar. Der Grund dafür liegt darin, dass diese Ansätze entweder nicht mit den Datenmodellen vereinbar sind oder keine Lösungen anbieten, die den aktuellen Ansprüchen an Lösungsqualität oder Effizienz genügen. Bekannte Forschungsrichtungen, die sich mit Multi-Observation Data und deren Schlüsseleigenschaften beschäftigen, sind die Analyse von Zeitreihen und die Ähnlichkeitssuche in probabilistischen Datenbanken. Während erstere Richtung eine zeitliche Ordnung der Beobachtungen eines Objekts voraussetzt, basieren unsichere Datenobjekte auf Beobachtungen, die sich gegenseitig bedingen oder ausschließen. Diese Dissertation umfasst aktuelle Forschungsbeiträge aus den beiden genannten Bereichen, wobei Methoden zur Ähnlichkeitssuche und zur Anwendung im Data Mining vorgestellt werden. Der erste Teil dieser Arbeit beschäftigt sich mit Ähnlichkeitssuche und Data Mining in Zeitreihendatenbanken. Insbesondere werden Zeitreihen betrachtet, welche aus periodisch auftretenden Mustern bestehen. Im Kontext eines medizinischen Anwendungsszenarios wird ein Ansatz zur Aktivitätserkennung vorgestellt. Dieser erlaubt mittels Merkmalsextraktion eine effiziente Speicherung und Analyse mit Hilfe von räumlichen Indexstrukturen. Für den Fall hochdimensionaler Merkmalsvektoren stellt dieser Teil zwei Indexierungsmethoden zur Beschleunigung von ähnlichkeitsanfragen vor. Die erste Methode berücksichtigt alle Attribute der Merkmalsvektoren, während die zweite Methode eine Projektion der Anfrage auf eine benutzerdefinierten Unterraum des Vektorraums erlaubt. Im zweiten Teil dieser Arbeit wird die Ähnlichkeitssuche im Kontext probabilistischer Datenbanken behandelt. Daten aus Sensormessungen besitzen häufig Eigenschaften, die einer gewissen Unsicherheit unterliegen. Aufgrund von Mess- oder übertragungsfehlern sind gemessene Werte oftmals unvollständig oder mit Rauschen behaftet. In diversen Szenarien, wie beispielsweise mit persönlichen oder medizinisch vertraulichen Daten, können Daten auch nachträglich von Hand verrauscht werden, so dass eine genaue Rekonstruktion der ursprünglichen Informationen nicht möglich ist. Diese Gegebenheiten stellen Anfragetechniken und Methoden des Data Mining vor einige Herausforderungen. In bestehenden Forschungsarbeiten aus dem Bereich der unsicheren Datenbanken werden diverse Probleme oftmals nicht beachtet. Entweder wird die Präsenz von Abhängigkeiten ignoriert, oder es werden lediglich approximative Lösungen angeboten, welche die Anwendung von Methoden für sichere Daten erlaubt. Andere Ansätze berechnen genaue Lösungen, liefern die Antworten aber nicht in annehmbarer Laufzeit zurück. Dieser Teil der Arbeit präsentiert effiziente Methoden zur Beantwortung von Ähnlichkeitsanfragen, welche die Ergebnisse absteigend nach ihrer Relevanz, also eine Rangliste der Ergebnisse, zurückliefern. Die angewandten Techniken werden schließlich auf Problemstellungen im probabilistischen Data Mining übertragen, um beispielsweise das Problem des Frequent Itemset Mining unter Berücksichtigung des vollen Gehalts an Unsicherheitsinformation zu lösen

    Scalable Probabilistic Similarity Ranking in Uncertain Databases (Technical Report)

    Get PDF
    This paper introduces a scalable approach for probabilistic top-k similarity ranking on uncertain vector data. Each uncertain object is represented by a set of vector instances that are assumed to be mutually-exclusive. The objective is to rank the uncertain data according to their distance to a reference object. We propose a framework that incrementally computes for each object instance and ranking position, the probability of the object falling at that ranking position. The resulting rank probability distribution can serve as input for several state-of-the-art probabilistic ranking models. Existing approaches compute this probability distribution by applying a dynamic programming approach of quadratic complexity. In this paper we theoretically as well as experimentally show that our framework reduces this to a linear-time complexity while having the same memory requirements, facilitated by incremental accessing of the uncertain vector instances in increasing order of their distance to the reference object. Furthermore, we show how the output of our method can be used to apply probabilistic top-k ranking for the objects, according to different state-of-the-art definitions. We conduct an experimental evaluation on synthetic and real data, which demonstrates the efficiency of our approach

    MUG Mel3 Cell Lines Reflect Heterogeneity in Melanoma and Represent a Robust Model for Melanoma in Pregnancy

    Get PDF
    Melanomas are aggressive tumors with a high metastatic potential and an increasing incidence rate. They are known for their heterogeneity and propensity to easily develop therapy-resistance. Nowadays they are one of the most common cancers diagnosed during pregnancy. Due to the difficulty in balancing maternal needs and foetal safety, melanoma is challenging to treat. The aim of this study was to provide a potential model system for the study of melanoma in pregnancy and to illustrate melanoma heterogeneity. For this purpose, a pigmented and a non-pigmented section of a lymph node metastasis from a pregnant patient were cultured under different conditions and characterized in detail. All four culture conditions exhibited different phenotypic, genotypic as well as tumorigenic properties, and resulted in four newly established melanoma cell lines. To address treatment issues, especially in pregnant patients, the effect of synthetic human lactoferricin-derived peptides was tested successfully. These new BRAF-mutated MUG Mel3 cell lines represent a valuable model in melanoma heterogeneity and melanoma pregnancy research. Furthermore, treatment with anti-tumor peptides offers an alternative to conventionally used therapeutic options—especially during pregnancy

    Marine Biodiversity in the Caribbean: Regional Estimates and Distribution Patterns

    Get PDF
    This paper provides an analysis of the distribution patterns of marine biodiversity and summarizes the major activities of the Census of Marine Life program in the Caribbean region. The coastal Caribbean region is a large marine ecosystem (LME) characterized by coral reefs, mangroves, and seagrasses, but including other environments, such as sandy beaches and rocky shores. These tropical ecosystems incorporate a high diversity of associated flora and fauna, and the nations that border the Caribbean collectively encompass a major global marine biodiversity hot spot. We analyze the state of knowledge of marine biodiversity based on the geographic distribution of georeferenced species records and regional taxonomic lists. A total of 12,046 marine species are reported in this paper for the Caribbean region. These include representatives from 31 animal phyla, two plant phyla, one group of Chromista, and three groups of Protoctista. Sampling effort has been greatest in shallow, nearshore waters, where there is relatively good coverage of species records; offshore and deep environments have been less studied. Additionally, we found that the currently accepted classification of marine ecoregions of the Caribbean did not apply for the benthic distributions of five relatively well known taxonomic groups. Coastal species richness tends to concentrate along the Antillean arc (Cuba to the southernmost Antilles) and the northern coast of South America (Venezuela – Colombia), while no pattern can be observed in the deep sea with the available data. Several factors make it impossible to determine the extent to which these distribution patterns accurately reflect the true situation for marine biodiversity in general: (1) highly localized concentrations of collecting effort and a lack of collecting in many areas and ecosystems, (2) high variability among collecting methods, (3) limited taxonomic expertise for many groups, and (4) differing levels of activity in the study of different taxa

    Intereses y conflictos en las relaciones europeas y estadounidenses con América Latina, siglo XIX

    Get PDF
    En este trabajo, los autores analizan los intereses comerciales europeos -ante todo los ingleses, franceses y alemanes- frente a América Latina a lo largo del siglo XIX. Dado el carácter limitado del presente estudio, se han eligido dos países latinoamericanos para ejemplificar los problemas surgidos en torno al comercio exterior y las inversiones extranjeras: México y (Gran) Colombia. Si bien los dos países muestran, como se podrá observar, muchas diferencias, tienen también las suficientes concordancias como para poder ser analizados con una serie de criterios iguales: primero se discuten las expectativas (comerciales) europeas, relacionadas con la Independencia de los países hispanoamericanos; después se aborda el estudio de los tratados negociados por las potencias europeas y Estados Unidos, por una parte, así como Mexico y Colombia, por otra

    Alemania y América Latina en la época del imperialismo. 1871-1914

    No full text
    ResumenEl objetivo de este artículo es analizar cómo se produjo la penetración alemana en Latinoamérica, en qué medida esta tuvo éxito y si fue resultado de una determinada estrategia ofensiva.AbstractThe purpose of this article is to analyze German penetration in Latin America how it took place, to what extent it was successful, and if it resulted from a specific offensive strategy

    Schuster, Sven, Die Violencia in Kolumbien: Verbotene Erinnerung? Der Bürgerkrieg in Politik und Gesellschaft. Stuttgart: Verlag Dieter Heinz/Akademischer Verlag Stuttgart 2009.

    No full text
    Rehm L. Schuster, Sven, Die Violencia in Kolumbien: Verbotene Erinnerung? Der Bürgerkrieg in Politik und Gesellschaft. Stuttgart: Verlag Dieter Heinz/Akademischer Verlag Stuttgart 2009. IBEROAMERICANA. 2012;46:209-301
    corecore